Back
用矩阵维度追踪一个 token 如何经过 embedding、多层 Attention + FFN、到最终 logits,彻底看清层与层之间传递的到底是什么。
transformer
attention
deep learning
维度推导